Построение дерева по нуклеотидным последовательностям

Ранее я работал со следующими бактериями:

Отобранные бактерии
Название бактерииМнемоника
Bacillus subtilisBACSU
Clostridium tetaniCLOTE
Enterococcus faecalisENTFA
Finegoldia magnaFINM2
Geobacillus kaustophilusGEOKA
Lactobacillus acidophilusLACAC
Listeria monocytogenes serovar 1/2aLISMO
Staphylococcus aureusSTAAR
Staphylococcus epidermidisSTAES

Теперь моя задача - построить филогенетическое дерево этих же бактерий, используя последовательности РНК малой субъединицы рибосомы (16S rRNA).

Для начала при помощи базы NSBI я получил файл, содержащий последовательности 16S rRNA этих бактерий.

Далее при помощи программы Jalview я построил выравнивание этих последовательностей:

Затем, применяя программу MEGA, я реконструировал филогенетическое дерево с использованием способа Maximum likelihood (максимального правдоподобия).

Данное дерево содержит 2 ветви, присутствующие в исходном: {СLOTE, FINM2} и {ENTFA, LACAC}. При этом, дерево, построенное по белковым последовательностям, имеет больше правильных ветвей. Таким образом реконструкция филогении по последовательностям 16sPНК получилась хуже, чем по белковым последовательностям.

Построение и анализ дерева, содержащего паралоги

Имеется белок CLPX_BACSU. Для анализа нужно найти в протеомах выбранных бактерий все возможные гомологи этого белка.

Я создал файл в формате fasta с протеомами изучаемых бактерий. Затем я сформировал базу данных для BLASTP, используя команду makeblastdb -in proteomes.fasta -out db.fasta -dbtype prot

Далее я провел поиск всех гомологов, установив порог на E-value 0.001. Использованная команда: blastp -query CLPX_BACSU.fasta -db db.fasta -evalue 0.001 -out hom.txt

Результат - файл hom.txt, содержащий список 46 белков-гомологов CLPX_BACSU

Скачав последовательности этих белков в файл, я сделал выравнивание при помощи программы Jalview. После я построил филогенетическое дерево, используя сервер Muscle

Результат:

Скобочная формула этого дерева.

Два гомологичных белка будем называть ортологами, если они из разных организмов и разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма, образовавшихся в результате дупликации гена, будем называть паралогами.

Все белки различаются. Даже если они из одной бактерии и имеют одинаковую длину, в их последовательностях присутствуют отличия.

Примеры паралогов: Q8YAB6_LISMO и Q8Y8B1_LISMO, Q5FHW6_LACAC и Q5FM98_LACAC, Q891B9_CLOTE и Q890L5_CLOTE


© Борисов Евгений 2017

2